어휘 크기

작성자

익명

작성일

2025.09.10

조회수

버전

어휘 크기

개요

어휘 크기(ocabulary Size)는 자연어처리(NLP, Natural Language Processing) 모델 설계에서 중요한 하이퍼파라미터 중 하나로, 모델이 인식하고 처리할 수 있는 고유 단어(또는 서브워드 토큰)의 총 수를 의미합니다. 어휘 크기는 언어 모델의 표현 능력, 메모리 사용량, 학습 및 추론 속도, 일반화 성능 등에 직접적인 영향을 미치기 때문에, 모델 설계 시 신중한 결정이 필요합니다.

어휘 크기를 결정하는 방식은 사용하는 토크나이저(tokenizer)와 언어의 특성, 데이터의 도메인 및 크기에 따라 달라지며, 일반적으로 수천에서 수십만 단어까지 다양하게 설정됩니다. 특히 최근의 대규모 언어 모델(LLM)에서는 서브워드 토크나이징(Subword Tokenization) 기법을 활용하여 어휘 크기를 효율적으로 관리하고 있습니다.

어휘 크기의 역할

1. 모델의 표현 범위 결정

어휘 크기는 모델이 학습 데이터 내에서 얼마나 다양한 단어를 인식하고 처리할 수 있는지를 결정합니다. 어휘가 너무 작으면 희귀 단어나 전문 용어를 처리할 수 없어 OOV(Out-of-Vocabulary, 어휘 외 단어) 문제가 심화됩니다. 반면, 어휘가 너무 크면 모델의 임베딩 레이어가 비대해지고, 학습 비용이 증가할 수 있습니다.

2. 임베딩 레이어의 파라미터 수에 영향

NLP 모델에서 입력 토큰은 일반적으로 임베딩 레이어(Embedding Layer)를 통해 벡터로 변환됩니다. 이 레이어의 파라미터 수는 다음과 같이 계산됩니다:

임베딩 파라미터 수 = 어휘 크기 × 임베딩 차원

예를 들어, 어휘 크기가 50,000이고 임베딩 차원이 768이라면, 임베딩 레이어는 약 3840만 개의 파라미터를 가집니다. 이는 전체 모델 파라미터 중 상당한 비중을 차지할 수 있으므로, 어휘 크기 조정은 모델 최적화의 핵심 요소입니다.

어휘 크기 결정 방법

1. 단어 기반 토크나이징 (Word-based Tokenization)

각 고유 단어를 하나의 토큰으로 간주합니다.
어휘 크기는 학습 데이터에 등장하는 고유 단어 수에 따라 결정됩니다.
장점: 직관적이고 해석이 쉬움.
단점: 어휘 폭발(Vocabulary Explosion) 문제 발생 가능. 예: 영어의 다양한 접사, 활용형 등으로 어휘가 급격히 증가.

2. 서브워드 기반 토크나이징 (Subword-based Tokenization)

현대 NLP 모델 대부분은 아래와 같은 서브워드 기법을 사용하여 어휘 크기를 효율적으로 제어합니다.

대표적인 기법들

기법	설명	특징
Byte Pair Encoding (BPE)	자주 등장하는 문자 조합을 반복적으로 병합하여 토큰 생성	GPT 시리즈에서 사용
WordPiece	BPE와 유사하나, 확률 기반 병합	BERT에서 사용
SentencePiece	언어에 독립적인 방식으로 토큰 생성 (공백도 학습에 포함)	T5, XLNet 등에서 사용
Unigram LM	언어 모델 기반으로 토큰을 분할	SentencePiece에서 지원

이러한 기법들은 전체 어휘를 미리 고정된 크기로 제한하며, 미지의 단어도 구성 요소 토큰들로 분해하여 처리할 수 있게 합니다.

어휘 크기의 적정 수준

어휘 크기의 적절한 선택은 여러 요인에 따라 달라집니다:

요인	영향
언어의 복잡성	한국어, 일본어 등은 형태소가 복잡하여 더 큰 어휘 크기가 필요할 수 있음
도메인 특화 여부	의학, 법률 등 전문 도메인은 전문 용어가 많아 어휘 확장 필요
모델 규모	소형 모델은 어휘를 작게 설정하여 과적합 방지
다국어 지원	다국어 모델(Multilingual Model)은 공유 어휘를 사용하며, 일반적으로 32,000~100,000 크기 사용

예시: - BERT-Base: 어휘 크기 30,522 (WordPiece) - GPT-2: 어휘 크기 50,257 (BPE) - KoBERT (한국어 BERT): 어휘 크기 약 8,000~32,000 (도메인 및 구현에 따라 다름)

어휘 크기 조정 시 고려사항

OOV율 최소화: 어휘 크기가 너무 작으면 새로운 문장에서 많은 토큰이 [UNK]로 처리됨.
메모리 및 계산 효율성: 큰 어휘는 임베딩 메모리 사용량 증가 → GPU 메모리 부담.
학습 데이터 크기: 데이터가 작을 경우 과도하게 큰 어휘는 의미 없음.
토큰 길이 균형: 어휘가 작으면 하나의 단어가 여러 토큰으로 분할되어 시퀀스 길이 증가 → 연산 복잡도 상승.

참고 자료

Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ACL.
Kudo, T. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. EMNLP.

📚 관련 문서: 서브워드 토크나이징, 언어 모델 아키텍처, 임베딩

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 어휘 크기

## 개요

**어휘 크기**(ocabulary Size)는 자연어처리(NLP, Natural Language Processing) 모델 설계에서 중요한 하이퍼파라미터 중 하나로, 모델이 인식하고 처리할 수 있는 고유 단어(또는 서브워드 토큰)의 총 수를 의미합니다. 어휘 크기는 언어 모델의 표현 능력, 메모리 사용량, 학습 및 추론 속도, 일반화 성능 등에 직접적인 영향을 미치기 때문에, 모델 설계 시 신중한 결정이 필요합니다.

어휘 크기를 결정하는 방식은 사용하는 토크나이저(tokenizer)와 언어의 특성, 데이터의 도메인 및 크기에 따라 달라지며, 일반적으로 수천에서 수십만 단어까지 다양하게 설정됩니다. 특히 최근의 대규모 언어 모델(LLM)에서는 **서브워드 토크나이징**(Subword Tokenization) 기법을 활용하여 어휘 크기를 효율적으로 관리하고 있습니다.

---

## 어휘 크기의 역할

### 1. 모델의 표현 범위 결정

어휘 크기는 모델이 학습 데이터 내에서 얼마나 다양한 단어를 인식하고 처리할 수 있는지를 결정합니다. 어휘가 너무 작으면 희귀 단어나 전문 용어를 처리할 수 없어 **OOV**(Out-of-Vocabulary, 어휘 외 단어) 문제가 심화됩니다. 반면, 어휘가 너무 크면 모델의 임베딩 레이어가 비대해지고, 학습 비용이 증가할 수 있습니다.

### 2. 임베딩 레이어의 파라미터 수에 영향

NLP 모델에서 입력 토큰은 일반적으로 **임베딩 레이어**(Embedding Layer)를 통해 벡터로 변환됩니다. 이 레이어의 파라미터 수는 다음과 같이 계산됩니다:

```
임베딩 파라미터 수 = 어휘 크기 × 임베딩 차원
```

예를 들어, 어휘 크기가 50,000이고 임베딩 차원이 768이라면, 임베딩 레이어는 약 3840만 개의 파라미터를 가집니다. 이는 전체 모델 파라미터 중 상당한 비중을 차지할 수 있으므로, 어휘 크기 조정은 모델 최적화의 핵심 요소입니다.

---

## 어휘 크기 결정 방법

### 1. 단어 기반 토크나이징 (Word-based Tokenization)

- 각 고유 단어를 하나의 토큰으로 간주합니다.
- 어휘 크기는 학습 데이터에 등장하는 고유 단어 수에 따라 결정됩니다.
- 장점: 직관적이고 해석이 쉬움.
- 단점: 어휘 폭발(Vocabulary Explosion) 문제 발생 가능. 예: 영어의 다양한 접사, 활용형 등으로 어휘가 급격히 증가.

### 2. 서브워드 기반 토크나이징 (Subword-based Tokenization)

현대 NLP 모델 대부분은 아래와 같은 서브워드 기법을 사용하여 어휘 크기를 효율적으로 제어합니다.

#### 대표적인 기법들

| 기법 | 설명 | 특징 |
|------|------|------|
| **Byte Pair Encoding (BPE)** | 자주 등장하는 문자 조합을 반복적으로 병합하여 토큰 생성 | GPT 시리즈에서 사용 |
| **WordPiece** | BPE와 유사하나, 확률 기반 병합 | BERT에서 사용 |
| **SentencePiece** | 언어에 독립적인 방식으로 토큰 생성 (공백도 학습에 포함) | T5, XLNet 등에서 사용 |
| **Unigram LM** | 언어 모델 기반으로 토큰을 분할 | SentencePiece에서 지원 |

이러한 기법들은 전체 어휘를 미리 고정된 크기로 제한하며, 미지의 단어도 구성 요소 토큰들로 분해하여 처리할 수 있게 합니다.

---

## 어휘 크기의 적정 수준

어휘 크기의 적절한 선택은 여러 요인에 따라 달라집니다:

| 요인 | 영향 |
|------|------|
| **언어의 복잡성** | 한국어, 일본어 등은 형태소가 복잡하여 더 큰 어휘 크기가 필요할 수 있음 |
| **도메인 특화 여부** | 의학, 법률 등 전문 도메인은 전문 용어가 많아 어휘 확장 필요 |
| **모델 규모** | 소형 모델은 어휘를 작게 설정하여 과적합 방지 |
| **다국어 지원** | 다국어 모델(Multilingual Model)은 공유 어휘를 사용하며, 일반적으로 32,000~100,000 크기 사용 |

예시:
- BERT-Base: 어휘 크기 30,522 (WordPiece)
- GPT-2: 어휘 크기 50,257 (BPE)
- KoBERT (한국어 BERT): 어휘 크기 약 8,000~32,000 (도메인 및 구현에 따라 다름)

---

## 어휘 크기 조정 시 고려사항

1. **OOV율 최소화**: 어휘 크기가 너무 작으면 새로운 문장에서 많은 토큰이 `[UNK]`로 처리됨.
2. **메모리 및 계산 효율성**: 큰 어휘는 임베딩 메모리 사용량 증가 → GPU 메모리 부담.
3. **학습 데이터 크기**: 데이터가 작을 경우 과도하게 큰 어휘는 의미 없음.
4. **토큰 길이 균형**: 어휘가 작으면 하나의 단어가 여러 토큰으로 분할되어 시퀀스 길이 증가 → 연산 복잡도 상승.

---

## 관련 기술 및 최신 동향

- **동적 어휘**(Dynamic Vocabulary): 특정 도메인에 맞춰 어휘를 실시간으로 조정하는 기법 (연구 단계).
- **어휘 공유**(Vocabulary Sharing): 다국어 모델에서 언어 간 공통 토큰을 공유하여 효율성 향상.
- **어휘 확장**(Vocabulary Expansion): 사전 훈련된 모델에 새로운 토큰을 추가하여 도메인 적응 (예: 이모지, 전문 용어).

---

## 참고 자료

- Devlin, J., et al. (2019). *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding*. NAACL.
- Sennrich, R., Haddow, B., & Birch, A. (2016). *Neural Machine Translation of Rare Words with Subword Units*. ACL.
- Kudo, T. (2018). *SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing*. EMNLP.

> 📚 **관련 문서**: [서브워드 토크나이징](/subword-tokenization), [언어 모델 아키텍처](/language-model-architecture), [임베딩](/embedding)

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

어휘 크기

어휘 크기

개요

어휘 크기의 역할

1. 모델의 표현 범위 결정

2. 임베딩 레이어의 파라미터 수에 영향

어휘 크기 결정 방법

1. 단어 기반 토크나이징 (Word-based Tokenization)

2. 서브워드 기반 토크나이징 (Subword-based Tokenization)

대표적인 기법들

어휘 크기의 적정 수준

어휘 크기 조정 시 고려사항

관련 기술 및 최신 동향

참고 자료

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?